Emergent of Complexity via Multi-Agent Competition
複雑な
環境
は作成が困難
マルチエージェント
の
競合学習
シンプル
な環境で複雑な行動を
創発
させられる
競合的タスク
Run to Goal
:相手より早く正面のゴールに到達する
You Shall Not Pass
:片方はゴールをめざし、片方は阻止する
Sumo
:相手をステージの外に出すか、ステージ上に倒す(
相撲
)
Kick and Defend
:
サッカー
のPK
シンプル
な環境でも、非常に
複雑
な行動が
創発
される可能性がある
たとえば
囲碁
の環境とルールは単純だが、勝つためには非常に複雑な戦略が必要
環境の複雑性がエージェントに依存するため,
エージェントの学習が進むにつれて環境がより複雑になる
同等の強さのエージェントと
対戦
(または
self-play
)させることにより、エージェントの実力に関係なく
適切な
難易度
のタスクを提供できる
カリキュラム学習
https://sites.google.com/view/multi-agent-competition
Emergent
Complexity
via
Multi-Agent
Competition
Trapit
Bansal
, Jakub
Pachocki
, Szymon
Sidor
, Ilya
Sutskever
, Igor
Mordatch
OpenAI
(Submitted on 10 Oct 2017 (v1), last revised 14 Mar 2018 (this version, v3))
https://arxiv.org/abs/1710.03748